The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
This paper is a technical overview of DeepMind and Google's recent work on reinforcement learning for controlling commercial cooling systems. Building on expertise that began with cooling Google's data centers more efficiently, we recently conducted live experiments on two real-world facilities in partnership with Trane Technologies, a building management system provider. These live experiments had a variety of challenges in areas such as evaluation, learning from offline data, and constraint satisfaction. Our paper describes these challenges in the hope that awareness of them will benefit future applied RL work. We also describe the way we adapted our RL system to deal with these challenges, resulting in energy savings of approximately 9% and 13% respectively at the two live experiment sites.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
我们介绍了一项对自然语言(NL)推理的人类通知,开放域和逻辑上复杂且多样的数据集,配备了一阶逻辑(fol)注释。对开本由1,435个示例(独特的结论)组成,每个示例与487组前提之一搭配,这些场所作为规则,可用于演绎理由,以理解每个结论的有效性。前提和结论的逻辑正确性是通过其平行注释来确保的,这些注释会自动由我们的FOL推理引擎验证。除了主要的NL推理任务外,对开本中的NL-FOL对自动构成了使用FOL作为逻辑形式的新的NL-FOL翻译数据集。我们对广泛的实验系统地评估了对中型语言模型(BERT,ROBERTA)进行微调的FOL推理能力,并且在大型语言模型(GPT-NEOX,OPT,OPT,GPT-3,Codex)上促成了很少的射击。对于NL-FOL翻译,我们尝试使用GPT-3和Codex。我们的结果表明,公开可用的最强大的大语言模型之一(LLM),GPT-3 Davinci,仅比随机结果略好,而在一部分集的一部分中,该模型尤其不好,并且在预测该模型方面尤其不好。纠正虚假和未知结论的真实价值。我们的数据集和代码可在https://github.com/yale-lily/folio上找到。
translated by 谷歌翻译
腿部机器人可以穿越各种各样的地形,其中一些可能对轮式机器人(例如楼梯或高度不平衡的表面)具有挑战性。然而,四倍的机器人面临湿滑表面上的稳定挑战。可以通过切换到更保守和稳定的运动模式,例如爬网模式(始终与地面三英尺接触)或安排模式(一只脚一次接触)来防止这种方法来解决这一问题。潜在跌落。为了应对这些挑战,我们提出了一种从过去的机器人体验中学习模型的方法,以预测潜在的失败。因此,我们仅基于本体感受的感觉信息触发步态切换。为了学习这种预测模型,我们提出了一个半监督的过程,用于在两个阶段中检测和注释地面真相滑移事件:我们首先在步态数据的时间序列序列中使用无可教力的异常检测器检测到异常发生,然后,然后,然后检测到异常情况。在重播模拟中,通过人类知识进行了验证,以断言滑移事件。这些注释的滑移事件随后用作地面真理示例,以训练整体决策者,以预测跨地形的滑移概率以进行遍历。我们分析了由腿部机器人在具有湿滑地形的多个站点上记录的数据分析模型。我们证明,潜在的滑移事件可以预测在潜在跌倒之前的720毫秒之前,平均精度大于0.95,平均F评分为0.82。最后,我们通过将其在腿部机器人上部署并根据滑移事件检测切换其步态模式来实时验证我们的方法。
translated by 谷歌翻译
视频框架插值(VFI)是许多视频处理应用程序的有用工具。最近,它也已应用于视频压缩域中,以增强常规视频编解码器和基于学习的压缩体系结构。尽管近年来,人们对增强框架插值算法的发展的重点越来越大,但插值内容的感知质量评估仍然是一个开放的研究领域。在本文中,我们为VFI(Flolpips)介绍了一个定制的完整参考视频质量指标,该指标基于流行的感知图像质量指标LPIP,该指标LPIPS捕获了提取的图像特征空间中的感知降解。为了提高LPIP的性能用于评估插值内容,我们通过使用时间失真(通过比较光流)来加重特征差图图,重新设计了其空间特征聚合步骤。在BVI-VFI数据库中进行了评估,该数据库包含180个带有各种框架插值伪像的测试序列,Flolpips显示出优异的相关性能(具有统计学意义),主观地面真相超过12位流行的质量评估者。为了促进VFI质量评估的进一步研究,我们的代码可在https://danielism97.github.io/flolpips上公开获得。
translated by 谷歌翻译
我们设计了简单,最佳的政策,以确保在经典的多武器匪徒问题中确保对重尾风险的安全。最近,\ cite {fan2021偏差}表明,信息理论优化的匪徒算法患有严重的重尾风险;也就是说,最糟糕的案例可能会以$ 1/t $的速度慢慢衰减,其中$ t $是时间范围。受其结果的启发,我们进一步表明,广泛使用的政策,例如标准的上限约束政策和汤普森采样政策也会产生重型风险。实际上,对于所有“依赖实例依赖的一致”政策,这种重型风险实际上存在。为了确保对这种重型风险的安全性,对于两臂强盗设置,我们提供了一种简单的政策设计,即(i)具有最差的最佳性能,可用于预期的遗憾$ \ tilde o(\ sqrt {t} )$和(ii)具有最坏的尾巴概率,即以指数率$ \ exp( - \ omega(\ sqrt {t}))$产生线性遗憾衰减。我们进一步证明,尾巴概率的这种指数衰减率在所有具有最差最佳最优性的政策中都是最佳的,这些损失率是预期的。最后,我们使用任意$ k $的武器数量将政策设计和分析改进了一般环境。我们为在政策设计下的任何遗憾阈值中提供详细的尾巴概率表征。也就是说,产生大于$ x $的遗憾的最坏情况是由$ \ exp( - \ omega(x/\ sqrt {kt}))$上限。进行数值实验以说明理论发现。我们的结果揭示了对一致性和轻尾风险之间不兼容的见解,而这表明对预期的遗憾和轻尾风险的最佳最佳性是兼容的。
translated by 谷歌翻译
语言模型预训练的最新进展利用大规模数据集创建多语言模型。但是,这些数据集中大多遗漏了低资源语言。这主要是因为网络上没有很好地表示口语,因此被排除在用于创建数据集的大规模爬网中。此外,这些模型的下游用户仅限于最初选择用于预训练的语言的选择。这项工作调查了如何最佳利用现有的预培训模型来为16种非洲语言创建低资源翻译系统。我们关注两个问题:1)如何将预训练的模型用于初始预培训中未包含的语言? 2)生成的翻译模型如何有效地转移到新域?为了回答这些问题,我们创建了一个新的非洲新闻语料库,涵盖16种语言,其中8种语言不属于任何现有评估数据集的一部分。我们证明,将两种语言转移到其他语言和其他领域的最有效策略是,以少量的高质量翻译数据微调大型预训练模型。
translated by 谷歌翻译
我们介绍了棕色行人内径数据集(BPOD),用于在头部安装的行人设置中基准测试视觉内径算法。在布朗大学校园的12个不同室内和户外地点使用同步全球和滚动快门立体声相机捕获此数据集。与现有数据集相比,BPOD包含更多图像模糊和自动旋转,这在行人内径术中很常见,但罕见的其他地方。地面真理轨迹是从沿行人路径放置的粘贴标记产生的,并且使用第三人称视频记录行人的位置。我们在BPOD上评估代表性直接,特征和基于学习的VO方法的性能。我们的结果表明,需要显着的发展来成功捕获行人轨迹。数据集的链接在这里:\ url {https://doi.org/10.26300/c1n7-7p93
translated by 谷歌翻译
前列腺癌是美国男人的第二致致命癌症。虽然磁共振成像(MRI)越来越多地用于引导前列腺癌诊断的靶向活组织检查,但其效用仍然受到限制,因为假阳性和假否定的高率以及较低的读者协议。机器学习方法在前列腺MRI上检测和定位癌症可以帮助标准化放射科学诠释。然而,现有的机器学习方法不仅在模型架构中不等,而且还可以在用于模型培训的地面真理标签策略中。在这项研究中,我们比较不同的标记策略,即病理证实放射科标签,整个安装组织病理学图像上的病理学家标签,以及病变水平和像素级数字病理学家标签(先前验证了组织病理学图像上的深层学习算法以预测像素 - 整个安装组织病理学图像上的Gleason模式)。我们分析这些标签对训练有素的机器学习模型的性能的影响。我们的实验表明,用它们培训的(1)放射科标签和模型可能会错过癌症,或低估癌症程度,(2)与他们培训的数字病理学家标签和模型与病理学家标签有高度的一致性,而(3)用数字病理学家培训的模型标签在两种不同疾病分布的两种不同群组中达到最佳性能,而不管使用的模型建筑如何。数字病理学家标签可以减少与人类注释相关的挑战,包括劳动力,时间,和读者间变异性,并且可以通过使可靠的机器学习模型进行培训来检测和定位前列腺癌,帮助弥合前列腺放射学和病理学之间的差距在MRI。
translated by 谷歌翻译